大模型碰到真难题了,测了500道,o3Pro仅通过15% 具体而言,本文提出了 UQ(Unsolved Questions),这是一个由 500 道题组成的测试集,涵盖计算机理论、数学、科幻、历史等主题,用于考察模型在推理、事实准确性以及浏览等方面的能力。UQ 在设计上兼具难度大与贴近真实两大特点:这些问题大多是人类 模型 gemini sonnet uq o3pro 2025-09-14 18:40 4